home *** CD-ROM | disk | FTP | other *** search
/ Windows Expert / Windows Expert.iso / desktop / iindxv10.zip / INDEX.DOC < prev    next >
Text File  |  1993-03-22  |  29KB  |  808 lines

  1.  
  2.  
  3.                            Instant Index
  4.  
  5.  
  6.  
  7.         Transform-Based Full Text Indexing and Search Software
  8.  
  9.                             Version 1.0
  10.  
  11.                            Documentation
  12.  
  13.  
  14.  
  15.       Instant Index, Copyright (C) 1992 1993 Theodore A. Holden,
  16.                         All rights Reserved
  17.  
  18.  
  19.                                 LICENSE
  20.  
  21.  
  22.         Instant Index v1.0 is neither free software nor is it in the
  23.         public domain. The software and its documentation, this file, are
  24.         property of the author and may not be sold without written
  25.         permission from the author.
  26.  
  27.  
  28.         Instant Index v1.0 is distributed as shareware. This means that
  29.         you are granted a limited license to use it for a period of 30
  30.         days. If you find it useful and decide to continue using it after
  31.         the trial period, registration is required.
  32.  
  33.  
  34.         Registered Individual users will be granted a just-like-a-book license
  35.         which means a registered version of the software can be used by more
  36.         than one person and can be moved from one computer to another so
  37.         long as there is NO POSSIBILITY of it being used by two different
  38.         persons on two different computers at the same time, just like a
  39.         book can not be read by two different persons in two different
  40.         places at the same time.  This is mainly intended to allow the
  41.         typical individual user to use the product on a computer at home and
  42.         on a computer at the office.
  43.  
  44.  
  45.         Two individually licensed copies of Instant Index, of any version,
  46.         with the same serial number, may not legally appear on more than one
  47.         computer at any place of business, government agency, school,
  48.         etc.
  49.  
  50.         Version 2.o of Instant Index is a commercial product and is not
  51.         shareware.
  52.  
  53.         Commercial site licenses for all versions of Instant Index are
  54.         available at reasonable rates.
  55.  
  56.  
  57.  
  58.  
  59.  
  60.  
  61.  
  62.       Instant Index    Copyright 1992, 1993    Ted Holden
  63.  
  64.  
  65.  
  66.                         TERMS OF DISTRIBUTION :
  67.  
  68.  
  69.         Redistribution of version 1.0 of Instant Index must include
  70.         the software, its documentation file, order form and all supplemental
  71.         files as a single unit without any modification AND subject to the
  72.         following conditions:
  73.  
  74.  
  75.         1. Any individual is welcome to make copies for his/her friends
  76.            and/or colleagues if NO FEE is charged.
  77.  
  78.  
  79.         2. Electronic bulletin boards, whether they charge or do not
  80.            charge their users subscription fee, are welcome to post the
  81.            program for down loading as long as they do not charge any fee
  82.            in particular for the distribution of Instant Index.
  83.  
  84.  
  85.         3. Computer information services such as CompuServe (CIS), Genie,
  86.            etc., may post this software for their subscribers.
  87.  
  88.  
  89.         4. Non-commercial user groups and computer clubs may distribute
  90.            the program to their members if the fee charged for the
  91.            diskette containing Instant Index does not exceed $10.
  92.  
  93.  
  94.         5. Disk vendors approved by the Association of Shareware
  95.            Professionals or disk vendors who explain the concept of
  96.            shareware in their ads that quote a price may distribute the
  97.            shareware version of Instant Index.
  98.  
  99.  
  100.         6. Persons or enterprises wishing to distribute Instant Index
  101.            in combination with other hardware, software, books or materials
  102.            must obtain proper licensing agreements from HT Enterprises.
  103.  
  104.  
  105.  
  106.  
  107.       Instant Index    Copyright 1992, 1993    Ted Holden
  108.  
  109.  
  110.                         DISCLAIMER  OF WARRANTY
  111.  
  112.  
  113.  
  114.  
  115.         THIS SOFTWARE AND MANUAL ARE SUPPLIED "AS IS". THE AUTHOR HEREBY
  116.         DISCLAIMS ALL WARRANTIES RELATING TO THIS SOFTWARE AND ITS
  117.         DOCUMENTATION FILE, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED
  118.         TO DAMAGE TO HARDWARE, SOFTWARE AND/OR DATA FROM USE OF THIS
  119.         PRODUCT. IN NO EVENT WILL THE AUTHOR OF THIS SOFTWARE BE LIABLE
  120.         TO YOU OR ANY OTHER PARTY FOR ANY DAMAGES.  THE WORST POSSIBLE
  121.         CASE FOR SOFTWARE FAILURE, IN OUR VIEW, WOULD BE FOR THE
  122.         COMPUTER INVOLVED, THE HOUSE OR BUILDING IN WHICH IT IS LOCATED,
  123.         AND THE ENTIRE NEIGHBORHOOD CONTAINING THAT BUILDING TO BURN TO
  124.         THE GROUND DUE TO SOME UNFORSEEN SOFTWARE BUG; EVEN IN THAT
  125.         CASE, NEITHER THEODORE HOLDEN NOR HT ENTERPRISES WILL ACCEPT ANY
  126.         LIABILITY.
  127.  
  128.         HT Enterprises cannot and will not be liable for any special,
  129.         incidental, consequential, indirect or similar damages due to loss
  130.         of data or any other reason, even if HT Enterprises or an authorized
  131.         HT Enterprises agent has been advised of the possibility of such
  132.         damages.  In no event shall the liability for any damages ever
  133.         exceed the price paid for the license to use software, regardless of
  134.         the form and/or extent of the claim.  The user of this program bears
  135.         all risk as to the quality and performance of the software.
  136.  
  137.  
  138.  
  139.  
  140.         YOUR USE OF THIS SOFTWARE INDICATES THAT YOU HAVE READ AND AGREE TO
  141.         THESE AND OTHER TERMS INCLUDED IN THIS DOCUMENTATION FILE.
  142.  
  143.  
  144.  
  145.  
  146.  
  147.                          VERSIONS AVAILABLE
  148.  
  149.  
  150.  
  151. Version 1.0 of Instant Index (included) is a shareware version which
  152. handles one (presumed large) ascii text file, with a .TXT suffix, at a
  153. time.  This version is more than proof of concept;  it should actually be
  154. of more value than the full multi-file version to certain groups of
  155. users, particularly CD ROM vendors and others involved in distributing large
  156. ascii text files.  Naturally, licensing arrangements must be made with HT
  157. Enterprises and the author of this software for such use.
  158.  
  159.  
  160. Version 2.0 uses the same indexing technology to index and search entire
  161. directories, and all of the files in them.  Text in ascii files is
  162. shown via the text handling mechanism of Instant Index itself;
  163. application files are brought up either in this method or in the
  164. applications which created them.  Provision is made for applications
  165. which do not use file extensions.  This version serves the needs of the
  166. user who has lots of text in lots of files and requires being able to
  167. very quickly find the files which contain a certain text pattern or
  168. group of words.
  169.  
  170.  
  171.  
  172.  
  173.                              WHAT IT IS
  174.  
  175. Instant Index requires a 386 or 486 computer and MS Windows
  176. 3.1.  It does not run in any other environment as of yet.
  177.  
  178.  
  179. Instant Index represents a software genre which most will be less
  180. familiar with than they are with the usual spreadsheets and
  181. wordprocessors.
  182.  
  183.  
  184. This genre is called full text search, and involves indexing large to
  185. gigantic bodies of text on disk in such a way as to allow large scale
  186. and rapid searching for words, phrases, and combinations of
  187. words in proximity etc.  Large bodies of text are just now becoming
  188. increasingly common and available in DOS format, particularly with the
  189. proliferation of CD technology.  A really good program for handling
  190. large bodies of text is clearly needed.
  191.  
  192.  
  193. There are two reasons why the average PC user is not familiar with this
  194. software genre:
  195.  
  196. 1.  Until now, such software has been very expensive.  License fees of
  197.     $1000 to $20,000 for a single user computer have been the norm.
  198.  
  199. 2.  Until now, such software has been very slow;  recent articles
  200.     in PC Week and InfoWorld describe leading products taking upwards
  201.     of two hours to index text files ranging from 13 - 26 MB.  The
  202.     average PC user would have (justifiable) difficulties in dealing
  203.     with this psychologically.  Basically, anything which takes two
  204.     hours or more to happen on a 486 isn't really a solution to
  205.     anything;  it's a problem.
  206.  
  207. The HT Enterprises Instant Index program solves both
  208. problems.  It is priced well within the reach of the average PC user
  209. and is FAST.  II can index a 100 MB file in under 20 minutes
  210. on a typical 33 MH 486 PC running MS Windows.  It is something like 100
  211. times faster than the fastest products until now.
  212.  
  213. We don't really know how large a file you could use with Instant
  214. Index on ordinary 386/486 PC's;  we suspect it could handle files in
  215. the .6 GB to GB range.
  216.  
  217.  
  218. Normal use for II would be to find a certain section
  219. of text and paste it into a wordprocessing document in Ami Pro,
  220. WordPerfect, or some other full-function Windows wordprocessor.
  221.  
  222.  
  223.  
  224.  
  225.                REGISTRATION FOR HT ENTERPRISES PROGRAMS
  226.  
  227. II version 1.0 is intended as a home product and also as a means for businesses,
  228. corporations and the like to evaluate the features and performance of
  229. the Instant Index concept.  There is also a certain class of users which
  230. might find version 1 or some adaptation of it more useful than the full
  231. version (2), and for such applications, licensing arrangements must
  232. be made with HT Enterprises.
  233.  
  234. THE VAST BULK OF USERS WILL HAVE A GREAT DEAL MORE USE FOR VERSION 2.0,
  235. AND IT IS NOT TERRIBLY EXPENSIVE!
  236.  
  237. Good site license terms for Instant Index are available. No version of
  238. II may be used in businesses, organizations, corporations,
  239. schools, government agencies etc. for production work without proper
  240. licenses being in place.
  241.  
  242. Home computer users may use II version 1.0 for one month on a demo basis.
  243. Beyond that, however, registration  is required for continued use of
  244. II.  The included form  should be used to register a copy of II.
  245.  
  246. Registered users of Instant Index (any version) receive technical
  247. support & news of upgrades and new products, which in the future will
  248. include other AI applications.  If you haven't guessed already, II is an
  249. AI application.
  250.  
  251.  
  252.  
  253. .............................................................................
  254.  
  255.            REGISTRATION FORM  For Individual Software Licenses
  256.  
  257.  
  258. PROGRAM:                              # COPIES:            AMOUNT:
  259.  
  260.  
  261. II Version 2.0  ($200 per copy)        _________          $______________
  262. Intro price good thru 5/30/93
  263.  
  264.  
  265. II Version 1.0  ( $30 per copy)        _________          $______________
  266.  
  267.  
  268. TOTAL. . . . . . . . . . . . . . . . . . . . . . . $______________
  269.  
  270. PAYMENT BY:
  271.  
  272. Check/Money Order No.__________ enclosed for $____________________
  273.  
  274.  
  275.  
  276. MAILING ADDRESS:
  277.  
  278. NAME______________________________________________________________
  279.  
  280. ADDRESS LINE 1____________________________________________________
  281.  
  282. ADDRESS LINE 2____________________________________________________
  283.  
  284. CITY/STATE/PROVINCE_______________________________________________
  285.  
  286. COUNTRY/POSTAL CODE_______________________________________________
  287.  
  288. HOME PHONE________________________________________________________
  289.  
  290. OFFICE PHONE______________________________________________________
  291.  
  292.  
  293. SEND TO:  HT Enterprises
  294.           8375 Leesburg Pike, Suite 422
  295.           Vienna Va. 22182
  296.  
  297.  
  298. Call HT Enterprises at (703) 760-9713 for site license pricing.
  299.  
  300.  
  301.  
  302.  
  303.  
  304.                          INSTANT INDEX
  305.  
  306.  
  307.  
  308.                               By
  309.  
  310.  
  311.  
  312.                          HT Enterprises
  313.  
  314.  
  315.  
  316.                           ASSUMPTIONS
  317.  
  318.  
  319.  
  320.         Instant Index is a piece of software designed for handling
  321. large to gigantic text data files.  Instant Index runs under
  322. MicroSoft Windows 3.1 and assumes at least a 386/486 based
  323. computer with a minimum of 4 MB of memory and a mouse pointing
  324. device.    Instant Index assumes an ASCII text file with a .txt
  325. extension, and creates a corresponding .con (control) index
  326. file.  Aside from the program itself,  Instant Index must keep
  327. one of these index files in memory (Windows 3.1 swap space on
  328. disk is included as memory in this reckoning) while searching
  329. the .txt file.  The index files are typically around 6% the size
  330. of the original data file.  This means that a 100 MB file could
  331. be searched easily enough with a 486 computer with 8 MB RAM
  332. memory.  486 Computers are now being configured with 64 MB of
  333. RAM;  this means that the outer limits of size for text files
  334. for use with Instant Index should be around 800 MB or so.  
  335.  
  336.  
  337.  
  338.         Bottom line:  Instant Index absorbs around 400K bytes when
  339. loaded with a minimal sized control file.  You need that 400K
  340. plus enough space for your index file.
  341.  
  342.  
  343.  
  344.         It is assumed that users are familiar with DOS files and
  345. directories, normal copy commands etc., and with the workings of
  346. MS Windows, ordinary file and font dialog boxes etc.
  347.  
  348.  
  349.  
  350. SETUP
  351.  
  352.  
  353.  
  354.         You paid lots of money for Instant Index;  therefore, it should
  355. be time-consuming and difficult to install on your computer,
  356. right?  Sorry to dissapoint you.  You'll find two executables on
  357. the distribution diskette:  II.exe (the main program), and
  358. wtxt.exe, which is the program which creates indices.  II.exe
  359. calls wtxt.exe with a WinExec call, which means that wtxt.exe
  360. has to be in a directory which is on your path.  II.exe could be
  361. anywhere.  You simply go through the MS Windows process for
  362. adding an executable to one of the normal program groups, which
  363. would usually be the Windows Applications group.  
  364.  
  365.  
  366.                   Copyright 1992 Ted Holden
  367.  
  368.  
  369.  
  370. I.      What Instant Index is and isn't.
  371.  
  372.  
  373. Instant Index is an awsomely fast system for indexing and searching
  374. large to gigantic text files.  It assumes a user has one or
  375. more ascii text files with a .txt extension, and then creates
  376. matching .con (control) files for indexing.  The text files may
  377. then be searched for words or combinations of words in settable
  378. proximity,  and text may then be pasted into typical MS Windows
  379. word processing software using the Windows clipboard.  Instant
  380. Index is single-purpose;  it does one thing and does that one
  381. thing well.  
  382.  
  383.  
  384.  
  385. II.     Technical Basis
  386.  
  387.  
  388.  
  389. Typical text-search software generates tables of key-words
  390. which hash into tables of linked lists of sector locations for a
  391. data file.  This methodology allows fast search once it is set
  392. up for a particular data file, but setting it up is very time
  393. consuming.  Index files (the keyword tables and linked lists
  394. etc.) tend to be not much smaller than the original data files,
  395. which can be a problem with very large files.  
  396.  
  397.  
  398.  
  399. Instant Index, on the other hand, utilizes statistical methods
  400. and a variant of the Lawrence transform to achieve a very fast
  401. correlation between textual content and location, and produces
  402. index files which are typically 6 percent of the size of the
  403. original data file.  This system is more malleable than the
  404. standard keyword hashing algorithms;  a number of desirable
  405. functions, such as actual fuzzy searching on very large data
  406. sets, are natural fallouts of the technology.  It is not easy to
  407. imagine fuzzy searching on a file too large for memory using
  408. keyword tables and hashing algorithms.
  409.  
  410.  
  411.  
  412. III.    Speed and Power.
  413.  
  414.  
  415.  
  416. The standard test file which we've been working with at HTE is
  417. the King James Bible, about 4.6 MB of text, and Instant Index
  418. can index that in something like 30 seconds on a 33 MH generic
  419. 486 with a 17 MS disk.  This would allow a 100 MB file to be
  420. indexed for rapid search in under 15 minutes on a computer
  421. costing less than $2000.  This sort of power  and speed give a
  422. user options which he otherwise simply would not have in dealing
  423. with large text data sets.  Text being scanned in or piling in
  424. from a news feed, for instance, can now be dealt with in rapid
  425. and easy fashion.  The thought of re-indexing a large file which
  426. has changed ceases to cause the fear and panic which it formerly
  427. did.  
  428.  
  429.  
  430.  
  431. IV.     Characteristics of Instant Index.
  432.  
  433.  
  434.  
  435. In contrast to normal software, Instant Index has some of the
  436. same characteristics, the same strengths and, occasionally,  a
  437. few of the same kinds of quirks as the human mind and human
  438. memory.  There are two pieces to the Instant Index search
  439. mechanism:  the transform-based initial search engine, the
  440. action of which is instantaneous in all cases, and a "grep" -
  441. like secondary or clean-up function.  Normal text search 
  442. software gets slow when given long search strings;  Instant
  443. Index gets faster.  The more specific a search criteria you give
  444. it, i.e. the longer the search string, the closer you come to
  445. having the math-transform 1'st stage system do all of the work,
  446. and the faster the whole process becomes.
  447.  
  448.  
  449.  
  450. For instance, the character string "lions" occurs in "millions"
  451. and a number of other words;  the fragment "ions" occurs even
  452. more often.  Therefore a search of the bible (our standard test
  453. material) for "lions" returns several hundred hits, too many to
  454. serve any useful purpose.  Adding the string "Daniel", or
  455. "mastery", however, narrows the search down to a few instances
  456. in the book of Daniel, the response being nearly instantaneous. 
  457. Typical search phrases such as "behold, a pale horse", or
  458. "fishers of men" , are plenty long enough in most instances to
  459. return the one or two hits expected and nothing more.  Words
  460. such as "the" or "and" add nothing to a typical search for
  461. obvious reasons, and may be omitted.  Any word with an unusual
  462. combination of letters, such as "archeologist" or
  463. "paleontologist", or likewise any word with four or more
  464. syllables, will often work well by itself as a search criteria. 
  465. When a search turns up too many hits to be useful, you can
  466. always add another word to the end of the search string and try
  467. again.  Adding words always narrows the search down and speeds
  468. things up.
  469.  
  470.  
  471.  
  472. At times, you have to be a little bit smart about how you use
  473. any tool, and II is no exception.  For instance, searching
  474. Shakespeare's works for a famous phrase, such as Hamlet's "To be
  475. or not to be, that is the question!", turns out to be very slow
  476. on II.  The truth of the matter is, that the only word in that
  477. whole phrase with any power of discrimination within the context
  478. of English text, is the word "question".  A search for "Whether
  479. tis nobler of the mind" turns out to be quite fast and is, for
  480. fairly obvious reasons, a better use of the tool.
  481.  
  482.  
  483.  
  484. V.      Verify and Redline.
  485.  
  486.  
  487.  
  488. The Verify and Redline functions (menu keys) effect the actions
  489. of a search.  Verify is the "grep" - like, or ordinary search
  490. function which cleans up after the action of the statistical
  491. engine of Instant Index.  Anytime a search returns more slowly
  492. than instantaneously, Verify is at work.  Verify removes false
  493. hits, or the tiny amount of statistical aliasing produced by the
  494. statistical engine of Instant Index.  If you turn Verify off, II
  495. (Instant Index)  becomes instantaneous in all cases, but you'll
  496. find yourself having to give longer and more precise search
  497. strings to cut the number of hits down to acceptability.  The
  498. normal situation in which you turn verify off is for fuzzy
  499. matching applications in which you assume data produced from
  500. scanning and OCR is less than 100% good on spelling.  In that
  501. case, Verify would always fail upon encountering a misspelled
  502. word, and would prevent the entire process from working.
  503.  
  504.  
  505.  
  506. Redline highlights the section of text which you are looking
  507. for when a hit is returned to the screen.  Redline has two
  508. modes:  2-Lines and All.  2-Lines highlights the text you are
  509. searching for only when it occurs within two successive lines of
  510. text, which is normal for a phrase.  The All option causes
  511. highlighting to occur for any line containing any word within
  512. the search criteria.  When using this, you must leave out words
  513. such as "and", "the",  "a" etc. or every line on the page will
  514. be lit up.  The All option is good when searching for a few key
  515. words which may be assumed to lie in close proximity, but not
  516. necessarily on the same one or two lines,  in a particular
  517. section of a large data file.  
  518.  
  519.  
  520.  
  521.  
  522.  
  523. VI.     Motion Control:  Next Hit, Previous Hit, Forward, Back,
  524. scrollbar
  525.  
  526.  
  527.  
  528. The parameters dialog box for the indexing function of Instant
  529. Index allows you to set a data file sector size (not the same
  530. notion as disk sector size) for searching.  Searches then seek
  531. sectors which contain all of the words in a search criteria. 
  532. If, for instance, five such sectors are found, the search will
  533. come back with a message box claiming <5 HITS!>.  The first hit
  534. sector will be put up on the screen, or at least as much of that
  535. sector as the screen will hold.  Next Hit and Previous Hit move
  536. to the next or previous hit sector.  Forward and Back position
  537. the file forward or back 512 bytes at a time.  
  538.  
  539.  
  540.  
  541. The scroll bar included in Instant Index positions the view
  542. screen within the text file and indicates, more or less, where
  543. in the text file a search string has been found.
  544.  
  545.  
  546.  
  547.  
  548.  
  549. VII.    Minimizing aliasing and false hits.
  550.  
  551.  
  552.  
  553. The advantages of Instant Index in comparison with standard
  554. text search software are huge.  The only very minor down side is
  555. aliasing or false hits, which comes with the territory with a
  556. statistical methodology, and this can easily be controlled.  The
  557. statistical back-end engine returns all sectors in which all
  558. words in a search criteria occur.  Making the search string
  559. longer and more precise allways narrows the search down and
  560. speeds up the process, since it cuts down the amount of work
  561. required of the verify function.
  562.  
  563.  
  564.  
  565. VIII.   Double Hits.
  566.  
  567.  
  568.  
  569. Instant Index occasionally returns a double hit, i.e. returns
  570. the same hit twice.  This is is a very minor nuisance which is
  571. unavoidable in the design of such a package.  It is a by-product
  572. of the system for insuring that search strings which span two
  573. file sectors still get reported without losing performance or
  574. increasing index file size.
  575.  
  576.  
  577.  
  578. IX.     Open and Fonts
  579.  
  580.  
  581.  
  582. The Open function assumes that a .txt file and a corresponding
  583. .con file exist in a directory somewhere, i.e. that you have
  584. availed yourself of the Index function to create a .con file for
  585. your .txt file.  Other than that, Open is just an ordinary
  586. Borland FileDialog box.  
  587.  
  588.  
  589.  
  590. Fonts is a fairly standard font select dialog box.  If you
  591. haven't seen these before, clicking on ".." is equivalent to "CD
  592. .." under DOS or UNIX.  There's nothing else mystical about them.
  593.  
  594.  
  595.  
  596. X.      Redlining and Copy/Paste
  597.  
  598.  
  599.  
  600. Aside from lines which get redlined by the Verify function, you
  601. can hold the left mouse key down and redline any lines which
  602. appear on the screen.  Clicking the right mouse key undoes any
  603. redlining.  The Copy/Paste key puts any redlined text into the
  604. MS Windows clipboard edit buffer, from which it may be retrieved
  605. using the "Paste" feature of any full-function MS Windows word
  606. processor.  This is the normal use of Instant Index.  Basically,
  607. you find something you want in a huge text file, then you paste
  608. it into a word processor and do your own thing with it.
  609.  
  610.  
  611.  
  612. XI.     Fuzzy logic and wildcard-like searching
  613.  
  614.  
  615.  
  616. Including the fragment "direct" in a search criteria will
  617. return "director", "direction", "directing" etc. etc.  i.e.
  618. wildcard searching is achieved by simple shortening or omission.
  619.  
  620.  
  621.  
  622.  
  623. Fuzzy searching is another topic.  We believe we have done the
  624. best job which is doable with fuzzy searching with Instant
  625. Index, nor is it obvious that fuzzy searching could be achieved
  626. at all for a file too large for memory using traditional
  627. methods.  Fuzzy searching means being able to find text which
  628. might be misspelled.  Bottom line is that the best you could
  629. ever hope for is finding some percentage over 50% of such
  630. criteria.  We believe we're way over 50%, but anything more
  631. precise than that would be a wild guess.
  632.  
  633.  
  634.  
  635. Fuzzy logic is an overused concept, like the word "turbo".
  636. Your best procedure for dealing with scanned text or other text
  637. prone to misspellings,  if you have this option, would be to run
  638. the text through some serious spell-checker and then use Instant
  639. Index on it.  The guys who write spell-checkers are like us; 
  640. they're good at what they do.
  641.  
  642.  
  643.  
  644. For a very large scanned text file, this may not be possible.
  645. Read through the section on the parameters dialog box for the
  646. Index function so that you know what goes into preparing a file
  647. for fuzzy searching.  Basically, when you create an index for a
  648. file which you plan to do fuzzy searching on, you want to set
  649. the Search Depth parameter as high as possible, allowing for the
  650. fact that the index file must be kept in memory.  The Fuzzy
  651. Value dialog box allows you to set values of 0 (no fuzziness), 1
  652. (one letter missed in a search criteria), or 2 (two letters
  653. missed in a search criteria).  Beyond that  only prayer would
  654. help.
  655.  
  656.  
  657. For fuzzy searching, set Verify to OFF and Redline to ALL.
  658.  
  659.  
  660.  
  661. Fuzzy searching raises the rate of statistical aliasing.   You
  662. have to know something about what you're looking for. 
  663. Basically, you just keep adding words to the end of the search
  664. string (in the Search dialog box), untill the number of hits is
  665. down to something acceptable.
  666.  
  667.  
  668.  
  669. XII.    Search.
  670.  
  671.  
  672.  
  673. The Search function brings up an ordinary edit dialog box in
  674. which you type a couple of words or a phrase to search for.  The
  675. text you typed in remains after the search.  You can add a word
  676. or two (to narrow down the search) simply by adding after the
  677. end of a string already in the dialog box.
  678.  
  679.  
  680.  
  681. XIII.   Indexing.
  682.  
  683.  
  684.  
  685. The Index function executes the wtxt.exe program mentioned in
  686. the section on setup.  Wtxt.exe is another MS Windows program,
  687. and may be thought of as simply a non-modal dialog box or
  688. extraneous window;  that's precisely what it appears as.  It has
  689. two functions:  Create and Parameters.  
  690.  
  691.  
  692.  
  693. XIV.    Create.
  694.  
  695.  
  696.  
  697. The Create function is an ordinary Borland file dialog box.
  698. You use it to select a file with a .txt extension and create a
  699. corresponding index (.con) file for it.  After that, you can
  700. either leave wtxt.exe on the screen, possibly to create several
  701. .con files in one sitting, or close it.
  702.  
  703.  
  704.  
  705.  
  706. XV.     Parameters.
  707.  
  708.  
  709.  
  710. The Parameters function in wtxt.exe allows you to set a number
  711. of parameters which figure into creating index files:
  712.  
  713.  
  714.  
  715.         A.      Alphabet:       
  716.  
  717.  
  718.  
  719. The upper and lower case characters of the alphabet being used
  720. for searching.  This could be anything for which an MS Windows
  721. font exists.  There is no reason why German or Russian text
  722. or even something as strange as French text could not be
  723. searched.  Instant Index is not case sensitive.  Be sure that
  724. upper and lower cases include equal numbers of characters.  We
  725. assume a phoenetic alphabet, left-to-right, high-to-low, all of
  726. those sorts of things.
  727.  
  728.         
  729.  
  730. A plug for another of our products may in fact be in order here.
  731.  We have one of the most interesting Russian font sets in
  732. existence, including standard Cyrillic, a fairytale font, and a
  733. Russian version of a Cloister font in ATM format.  Call for
  734. info.           
  735.  
  736.  
  737.  
  738.         B.      Other Characters:
  739.  
  740.  
  741.  
  742. Other characters (than the alphabet) to include in search
  743. strings.  Typically, just the numbers 0 - 9.  For instance, for
  744. bible searching, you might also include a colon ( : ) to allow
  745. you to search for such things as "Gen 1:7".  Instant Index
  746. allows a total of 60 characters all told, counting each
  747. upper/lower-case pair as one character.
  748.  
  749.  
  750.  
  751.         C.      Search Density.
  752.  
  753.  
  754.  
  755. Basically, this is just the size of the index file.  Raising
  756. this value by one doubles the size of the index file from the
  757. previous value.  The up side is that this reduces statistical
  758. aliasing.  This becomes helpfull for fuzzy searching.  Assuming
  759. somebody doing fuzzy searching has the memory to deal with it,
  760. the larger index file is better.  
  761.  
  762.  
  763.  
  764.         D.      Text File Section Size.
  765.  
  766.  
  767.  
  768. This is the size (in bytes) of a section within the text file to
  769. serve as a base of reference.  Instant Index thinks of  the text
  770. file as consisting of sectors of this unit of size.  The
  771. back-end statistical search engine returns sectors within which
  772. all words of a search criteria are found.  2048 Bytes is the
  773. default.    As of now, we can think of no real reason for having
  774. the sector size smaller in the normal case.  For fuzzy logic
  775. searching with Verify off, a lower value would let you see an
  776. entire file sector on one screen, which might be helpful. 
  777. Halving the section size doubles the size of the index file.
  778.  
  779.  
  780.  
  781.         E.  Anti Aliasing.
  782.  
  783.  
  784.  
  785. This one is a no-brainer.  Anti aliasing is set for the English
  786. language at present.  For English text, leave it on.  For other
  787. language text, turn it off.  The feature is worth having, as it
  788. generally reduces the incidence of false hits and speeds up the
  789. program (reduces the job of the Verify function).   We would
  790. require 5 - 10 MB of text in another language, along with an
  791. appropriate MS Windows font, to set up a version with
  792. Anti-aliasing  for another language.  
  793.  
  794.  
  795.  
  796. The unique anti-asliasing feature of Instant Index is the chief
  797. point which differentiates  this program from other attempts to
  798. use the Lawrence transform, and what allows  the program to use
  799. an index file 6% the size of the data file rather than the more
  800. usual 20 - 50%.
  801.  
  802.  
  803.  
  804.  
  805.  
  806.  
  807.  
  808.